Yiksan0315's Blog

Variance

  • or
  • 분산

# Tag:

  • Source/KU_ML

Variance(분산)

분포가 얼마나 퍼져 있는 지에 대한 정도를 나타내며, 관측값이 평균(Expectation)으로부터 얼마나 멀리 떨어져 있는가를 나타낸다.

중심(=mean, expectation)이 같더라도, 분산이 다르다면 다른 분포이다. Variable of variable : or

는 분산의 정의이고, 이를 단순화하여 계산하려면 와 같다.

이 때, 자체는 상수값 이므로, 다음과 같다.

분산의 특징은 반드시 0보다 크다는 것인데, 이는

:Jensen's Inquality의 일종이라고 할 수 있다.

Standard Deviation

가 되며, 이를 표준편차(Standard deviation)이라고 한다. 제곱 한 후 제곱근을 다시 씌워 구하는 이유는, 이를 통해 음의 값이 나오는 것을 방지하기 위해서이다.

또한 제곱을 한 후에는, 기존의 단위(unit)이 제곱이 되어 나타내지게 되므로(ex) ), 단위를 제대로 맞추기 위해 제곱근을 씌워 사용한다.

Why square?

  1. Linearity 문제 ⇒ 단순히 평균에서 얼마나 떨어져 있는지를 따지면, 와 같이 기대값의 선형성에 의해 의미가 없어진다.
  2. 음의 표준편차를 방지하기 위해 절대값(Manhattan Distance)와 같이 계산하려면, 미분 불가능 점 등의 이유로 활용하기 불편해진다.

Property of variance

    1. 상수 를 더하는 것은, 위치만 이동시키므로 분산을 변하게 하지 않는다.
    2. , 가 음수라고 하여도 제곱이 되므로, 항상 분산은 0보다 크거나 같다.
  1. : 가 독립이 아닐 경우
    1. : ; Covariance 의미한다.
    2. 만약 두 확률 변수가 서로 독립이라면, Covariance는 0이 된다. 역으로 Covariance가 0이라고 해도, 둘 확률 변수가 독립임을 의미하는건 아닌다. 비선형적 관계가 존재할 수도 있다.
  2. : 가 독립일 경우에만.
    1. : 차인 경우에도 분산의 합으로 나타내진다.

Variance of Machine Learning

정답과 상관없이 predict한 값들이 서로 얼마나 떨어져 있는지.

Variance가 높다는 것은 곧 feature가 조금만 달라져도 predict 값이 민감하게 바뀐다는 걸 의미한다. 이는 Overfitting으로 이어진다.

Variance of Estimator

as : Consistent estimator, Train Data가 증가함에 따라 정확하게 예측함을 의미한다.

Variance of Sample Mean

sample mean: 이므로,

: 이 때, 는 Variance가 개 있음을 의미한다. 따라서 의 결과로 축약된다.
또한, 는 Covariance를 의미하게 되는데, independent 함을 가정으로 하므로 그 값은 0이 된다.

as : Consistent estimator, Variance of Estimator와 동일하다.

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.